我们介绍了一种新的图像取证方法:将物理折射物(我们称为图腾)放入场景中,以保护该场景拍摄的任何照片。图腾弯曲并重定向光线,因此在单个图像中提供了多个(尽管扭曲)的多个(尽管扭曲)。防守者可以使用这些扭曲的图腾像素来检测是否已操纵图像。我们的方法通过估计场景中的位置并使用其已知的几何和材料特性来估算其位置,从而使光线通过图腾的光线不十障。为了验证图腾保护的图像,我们从图腾视点重建的场景与场景的外观从相机的角度来检测到不一致之处。这样的方法使对抗性操纵任务更加困难,因为对手必须以几何一致的方式对图腾和图像像素进行修改,而又不知道图腾的物理特性。与先前的基于学习的方法不同,我们的方法不需要在特定操作的数据集上进行培训,而是使用场景和相机的物理属性来解决取证问题。
translated by 谷歌翻译
Image super-resolution is a common task on mobile and IoT devices, where one often needs to upscale and enhance low-resolution images and video frames. While numerous solutions have been proposed for this problem in the past, they are usually not compatible with low-power mobile NPUs having many computational and memory constraints. In this Mobile AI challenge, we address this problem and propose the participants to design an efficient quantized image super-resolution solution that can demonstrate a real-time performance on mobile NPUs. The participants were provided with the DIV2K dataset and trained INT8 models to do a high-quality 3X image upscaling. The runtime of all models was evaluated on the Synaptics VS680 Smart Home board with a dedicated edge NPU capable of accelerating quantized neural networks. All proposed solutions are fully compatible with the above NPU, demonstrating an up to 60 FPS rate when reconstructing Full HD resolution images. A detailed description of all models developed in the challenge is provided in this paper.
translated by 谷歌翻译
视觉宣传活动的挑战性输入设置之一是,当初始摄像头视图相距甚远时。这样的设置很困难,因为宽的基线会导致物体外观发生巨大变化并引起阻塞。本文为宽基线图像提供了一种新颖的自我监督的视觉伺服伺服方法,这不需要3D地面真相监督。回归绝对相机相对于对象的现有方法需要以3D边界框或网格的形式的对象的3D地面真实数据。我们通过利用称为3D均衡的几何特性来了解连贯的视觉表示形式 - 表示表示作为3D转换的函数以可预测的方式进行转换。为了确保功能空间忠实于基础的大地测量空间,地球保留的约束与均衡相结合。我们设计了一个暹罗网络,该网络可以有效地强制执行这两个几何特性,而无需3D监督。借助学习的模型,可以简单地通过在学习空间中的梯度并用作闭环视觉陶器的反馈来推断相对转换。我们的方法对来自YCB数据集的对象进行了评估,在使用3D监督的最新方法方面显示了视觉伺服任务上有意义的超越性能或对象对齐任务。我们的平均距离误差降低超过35%,成功率超过90%,误差耐受性。
translated by 谷歌翻译
使用量子卷积神经网络(QCNN)的机器学习在量子和经典数据分类中都取得了成功。在先前的研究中,在少数参数制度中,在相同的训练条件下,QCNN的分类准确性比其经典对应物具有更高的分类精度。但是,由于量子电路的大小有限,因此很难检查大规模量子模型的一般性能,这可以在不久的将来可靠地实施。我们建议转移学习是在嘈杂的中间量子量子时代利用小QCNN的有效策略。在经典到量词转移学习框架中,QCNN可以通过使用预训练的经典卷积神经网络(CNN)来解决复杂的分类问题,而无需大规模量子电路。我们对QCNN模型进行了数值模拟,并在转移学习下对MNIST数据分类进行了各种量子卷积和汇总操作,其中经典的CNN经过了时尚持续数据的培训。结果表明,在相似的训练条件下,从经典到量子CNN的转移学习比纯粹的经典转移学习模型要好得多。
translated by 谷歌翻译
我们提出了Styletalker,这是一种新颖的音频驱动的会说话的头部生成模型,可以从单个参考图像中综合一个会说话的人的视频,并具有准确的音频同步的唇形,逼真的头姿势和眼睛眨眼。具体而言,通过利用预验证的图像生成器和图像编码器,我们估计了会说话的头视频的潜在代码,这些代码忠实地反映了给定的音频。通过几个新设计的组件使这成为可能:1)一种用于准确唇部同步的对比性唇部同步鉴别剂,2)一种条件顺序的连续变异自动编码器,该差异自动编码器了解从唇部运动中解散的潜在运动空间,以便我们可以独立地操纵运动运动的运动。和唇部运动,同时保留身份。 3)自动回归事先增强,并通过标准化流量来学习复杂的音频到运动多模式潜在空间。配备了这些组件,Styletalker不仅可以在给出另一个运动源视频时以动作控制的方式生成说话的头视频,而且还可以通过从输入音频中推断出现实的动作,以完全由音频驱动的方式生成。通过广泛的实验和用户研究,我们表明我们的模型能够以令人印象深刻的感知质量合成会说话的头部视频,这些视频与输入音频相符,可以准确地唇部同步,这在很大程度上要优于先进的基线。
translated by 谷歌翻译
准确的三维感知是几个计算机视觉应用程序中的一项基本任务。最近,由于其有效的深度感应能力,商用RGB深度(RGB-D)相机已被广泛用作单视深度感应设备。但是,由于单视环境的固有噪声,大多数RGB-D传感器的深度质量仍然不足。最近,一些研究集中在RGB-D摄像机的单视深度增强上。最近的研究提出了基于深度学习的方法,通常使用高质量的监督深度数据集训练网络,这表明地面真相(GT)深度数据集的质量是准确系统的最重要的重要因素。但是,这种高质量的GT数据集很难获得。在这项研究中,我们开发了一种基于RGB-D流数据集的高质量GT深度生成的新方法。首先,我们将局部空间区域中的连续深度帧定义为本地框架集。然后,使用无监督的点云注册方案将深度框架对齐到本地框架集中的某个帧。根据过度培训方案对注册参数进行了训练,该方案主要用于为每个帧集构造单个GT深度图像。最终的GT深度数据集是使用多个本地框架集构建的,每个本地框架集经过独立训练。这项研究的主要优点是,只能使用RGB-D流数据集在各种扫描环境下构建高质量的GT深度数据集。此外,我们提出的方法可以用作新的基准GT数据集,以进行准确的性能评估。我们在先前基准的GT深度数据集上评估了GT数据集,并证明我们的方法优于最新的深度增强框架。
translated by 谷歌翻译
归纳转移学习旨在通过利用源任务中的预训练模型来从少量培训数据中学习目标任务。大多数涉及大规模深度学习模型的策略采用预先培训的模型和进行目标任务进行初始化。但是,当使用过度参数化模型时,我们通常可以在不牺牲源任务的准确性的情况下修剪模型。这促使我们采用模型修剪来通过深度学习模型进行转移学习。在本文中,我们提出了PAC-NET,这是一种简单而有效的方法,用于基于修剪的转移学习。 PAC-NET由三个步骤组成:修剪,分配和校准(PAC)。这些步骤背后的主要思想是确定源任务的基本权重,通过更新基本权重来微调源任务,然后通过更新剩余的冗余权重来校准目标任务。在各种广泛的感应转移学习实验集中,我们表明我们的方法通过很大的边距实现了最先进的性能。
translated by 谷歌翻译
已知最近的清晰度感知最小化(SAM)可以找到平坦的最小值,这有助于改善稳健性。 Sam通过报告当前迭代周围的小社区内的最大损失值来修改损失函数。但是,它使用欧几里得球来定义邻域,这可能是不准确的,因为神经网络的损失函数通常是根据概率分布(例如类预测概率)定义的,从而使参数空间空间非欧几里得。在本文中,我们在定义邻里时考虑了模型参数空间的信息几何形状,即用Fisher信息引起的椭圆形取代Sam的欧几里得球。我们称为Fisher Sam的方法定义了符合基础统计歧管的内在度量的更准确的邻域结构。例如,由于我们的Fisher Sam避免了参数空间几何形状,因此SAM可能会在附近或不当远处探测最坏情况下的损失值。最近,另一种自适应SAM方法会根据参数幅度的规模拉伸/收缩欧几里得球。这可能是危险的,有可能破坏邻里结构。我们证明了在几个基准数据集/任务上提出的Fisher SAM的性能提高。
translated by 谷歌翻译
与单轴平面成像的2-D超声(US)相比,3-D US成像系统可以沿三个轴平面可视化容积。这允许完整的解剖学观察,这对于妇科(GYN)和产科(OB)应用是有用的。不幸的是,与2-D US相比,3-D US在分辨率中具有固有的限制。例如,在3-D US与3-D机械探针的情况下,例如,图像质量沿着光束方向可比较,但在其他两个轴向图像平面中通常观察到图像质量的显着劣化。为了解决这个问题,我们提出了一种新颖的无监督的深度学习方法来提高3-D US图像质量。特别是,使用{\ EM无与伦比的}高质量的2-D US图像作为参考,我们培训了最近提出的可切换Cyclean架构,以便在3-D中的每个映射平面都可以学习2-D US图像的图像质量。由于可切换架构,我们的网络还可以根据用户偏好提供对图像增强级别的实时控制,这是以用户为中心的扫描仪设置的理想选择。具有临床评估的广泛实验证实,我们的方法提供了显着提高的图像质量,也能成为用户友好的灵活性。
translated by 谷歌翻译
本文介绍了一个混合运动规划策略,将深度生成网络与传统运动规划方法相结合。现有的规划方法如* *和混合动力A *被广泛用于路径规划任务,因为它们即使在复杂的环境中确定可行的路径也是如此;但是,它们对效率有局限性。为了克服这些限制,介绍了一种基于神经网络的路径规划算法,即神经混合A *。本文使用条件变形Autiachoder(CVAE)提出通过利用CVAE在给定停车环境的信息的情况下学习有关规划空间信息的能力来指导搜索算法。基于在示威中学到的可行轨迹的分布,利用了非均匀的扩展策略。该方法有效地学习给定状态的表示,并显示了算法性能方面的改进。
translated by 谷歌翻译